通用網絡爬蟲的實現原理:
獲取初始的URL。初始的URL地址可以人為地指定,也可以由用戶指定的某個或某幾個初始爬取網頁決定。
根據初始的URL爬取頁面并獲得新的URL。獲得初始的URL地址之后,先爬取當前URL地址中的網頁信息,然后解析網頁信息內容,將網頁存儲到原始數據庫中,并且在當前獲得的網頁信息里發現新的URL地址,存放于一個URL隊列里面。
將新的URL放到URL隊列中,獲取下一個新的URL地址之后,會將新的URL地址放到URL隊列中。
從URL隊列中讀取新的URL,從而獲得新的網頁信息,同時在新網頁中獲取新URL,并重復上述的爬取過程。
滿足爬蟲系統設置的停止條件時,停止爬取。在編寫爬蟲的時候,一般會設置相應的停止條件,爬蟲則會在停止條件滿足時停止爬取。如果沒有設置停止條件,爬蟲就會一直爬取下去,一直到無法獲取新的URL地址為止。
通用網絡爬蟲的特點有:
由于商業原因,引擎的算法是不會對外公布的。
這類網絡爬蟲的爬取范圍和數量巨大,對于爬取速度和存儲空間要求較高,爬取頁面的順序要求相對較低。
待刷新的頁面太多,通常采用并行工作方式,但需要較長時間才能刷新一次頁面。
存在一定缺陷,通用網絡爬蟲適用于為搜索引擎搜索廣泛的需求。
回答所涉及的環境:聯想天逸510S、Windows 10。
通用網絡爬蟲的實現原理:
獲取初始的URL。初始的URL地址可以人為地指定,也可以由用戶指定的某個或某幾個初始爬取網頁決定。
根據初始的URL爬取頁面并獲得新的URL。獲得初始的URL地址之后,先爬取當前URL地址中的網頁信息,然后解析網頁信息內容,將網頁存儲到原始數據庫中,并且在當前獲得的網頁信息里發現新的URL地址,存放于一個URL隊列里面。
將新的URL放到URL隊列中,獲取下一個新的URL地址之后,會將新的URL地址放到URL隊列中。
從URL隊列中讀取新的URL,從而獲得新的網頁信息,同時在新網頁中獲取新URL,并重復上述的爬取過程。
滿足爬蟲系統設置的停止條件時,停止爬取。在編寫爬蟲的時候,一般會設置相應的停止條件,爬蟲則會在停止條件滿足時停止爬取。如果沒有設置停止條件,爬蟲就會一直爬取下去,一直到無法獲取新的URL地址為止。
通用網絡爬蟲的特點有:
由于商業原因,引擎的算法是不會對外公布的。
這類網絡爬蟲的爬取范圍和數量巨大,對于爬取速度和存儲空間要求較高,爬取頁面的順序要求相對較低。
待刷新的頁面太多,通常采用并行工作方式,但需要較長時間才能刷新一次頁面。
存在一定缺陷,通用網絡爬蟲適用于為搜索引擎搜索廣泛的需求。
回答所涉及的環境:聯想天逸510S、Windows 10。